http://www.arocmag.com/article/02-2019-09-014.html 


稀 琉 和 标签 约束 半 监 督 自动 编码 机 的 分 类 算法 


TERES 3, "K 威 es 王 晨 妮 
(1. 江南 大 学 物 联 网 工程 学 院 , 江苏 无 锡 214122; 2. 物 联 网 技术 应 用 教育 部 工程 研究 中 心 , 江苏 无 锡 214122) 


摘 要 : 自动 编码 机 通过 深度 无 监督 学 习 能 够 表达 数据 的 语义 特征 ， 但 由 于 其 隐 含 层 节 点 个 数 难以 有 效 确定 ， 所 处 理 
的 数据 进一步 用 于 分 类 时 常会 导致 分 类 准确 度 低 ， 稳 定性 弱 等 问题 。 针 对 这 些 问题 ， 提 出 了 一 种 稀疏 和 标签 约束 的 半 
监督 自动 编码 机 (SLRAE)， 以 实现 无 监督 学 习 与 监督 学 习 的 有 机 结合 ， 更 准确 地 抽取 样本 的 本 质 特 征 。 稀 疏 约 束 项 针 
对 每 个 隐 含 结 点 的 响应 添加 约束 条 件 ， 从 而 在 隐 含 神经 元 数量 较 多 的 情况 下 仍 可 发 现 数据 中 潜在 的 结构 ; 同时 引入 标 
签约 束 项 ， 以 监督 学 习 的 方式 比 对 实际 标签 与 期 望 标签 ， 针 对 性 地 调整 网 络 参数 ， 进 一 步 提高 分 类 准确 率 。 为 验证 所 
提 方 法 的 有 效 性 ,实验 中 对 多 个 数据 集 进行 广泛 地 测试 ,其 结果 表明 ,， 相 对 传统 自动 编码 机 (AE)， 稀 疏 自动 机 (SAE)， 
以 及 极限 学 习 机 (ELM)，SLRAE 所 处 理 的 数据 应 用 于 同一 分 类 器 ， 能 明显 提高 分 类 准确 率 和 稳定 性 。 
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Semi-supervised auto-encoder using sparse and label regularizations for classification 
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Abstract: Auto-Encoder can express the semantic features of data through deep unsupervised learning, but it is hard to determine 
the nodes of hidden layer and the processing of data for classification often leads to low accuracy and low stability. To solve the 
problems, this paper proposes a semi-supervised auto-encoder using sparse and label regularizations (LSRAE) to extract the 
essential features of the samples more accurately by combining unsupervised learning with supervised learning. The sparse 
regularization term adds constraints to the response of each hidden node, so that this algorithm can find potential structures in 
the data when the number of hidden neurons is large. At the same time, this algorithm introduce a label regularization term to 
compare the actual labels with desired labels by supervised learning to adjust the network parameters and further improve the 
classification accuracy. In order to verify the validity of the proposed method, this algorithm tests many data sets in the 
experiment. The results show that compared with traditional auto-encoders (AE) , sparse auto-encoder (SAE) , and extreme 
learning machine (ELM) , SLRAE can obviously improve the classification accuracy and stability when the processed data is 
applied to the same classifier. 
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其 复杂 的 网 络 结构 而 导致 分 类 精度 下 降 。 为 了 解决 这 一 问题 ， 
一 些 AE 正则 化 方法 被 学 者 们 提出 : 稀 玻 自动 编码 器 (sparse 


随 着 信息 技术 的 飞速 发 展 ， 数 字数 据 库 中 的 数据 呈现 指数 auto-encoder, SAE) [5 是 Bengio 等 人 于 2007 年 提出 来 的 ， 
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增长 ， 如 何 有 效 地 从 海量 的 信息 中 提取 出 有 价值 的 特征 ， 已 成 求 隐 藏 层 神经 元 的 激活 度 满 足 一 定 的 稀疏 性 ， 降 噪 自动 编码 器 
今 数据 挖掘 和 模式 识别 领域 的 研究 热点 之 一 。 自 2006 年 (denoising auto-encoder, DAE) [7 是 由 Vincent 等 人 于 2008 


以 来 ， 以 特征 学 习 品 为 代表 的 自动 编码 器 Cauto-encoder, AE) 
中 表示 学 习 在 机 器 学 习 领 域 取得 了 突破 性 的 进展 
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F 提 出 的 ， 是 对 输入 向 量 加 入 干扰 ， 训 练 编码 器 重 构 出 原始 输 
， 这 些 进 展 主 入 ， 使 网 络 具 有 更 好 的 鲁 棒 性 ， 压 缩 自动 编码 机 (contractive 
来 进行 深度 学 习 模 型 的 初始 化 中 。 然 而 ， 常 用 的 AE SA autoencoder，CAE)E5 是 Bengio 等 人 在 2011 年 提出 , 通过 将 隐 
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含 层 输出 关于 权重 的 雅克 比 矩 阵 的 F 范 数 的 3 
的 正则 化 约束 项 ， 可 以 获取 和 鲁 棒 性 的 中 间 层 特征 。 


LM 


F 方 作为 重 构 函 数 


以 上 的 正则 化 AE 都 是 无 监督 学 习 的 过 程 b0， 无 监督 的 深 


度 学 习 方法 是 从 数 提 


居 本 身分 析 ， 能 有 效 提取 出 深层 抽象 的 数据 


Ax 


寺 征 ， 但 是 


E 验 标签 信息 的 缺乏 ， 所 提 


特定 类 别 ， 很 难 应 用 了 


个 问题 ， 但 学 习 到 的 特 生 
力 弱 ， 很 容易 产生 
为 了 更 好 


本 文 提出 
(SLRAE) 


中 描述 标签 


这 些 特征 用 


«Su EH 


标签 约束 项 
实验 结果 表 


1 ”相关 工作 


1.1 自动 编码 机 (AE) 
自动 编码 机 的 


fr USPS 数据 库 02 和 6 个 UCI 数 和 
将 本 文 提出 的 SLRAE 方法 与 AE，SAE，ELM，LRAE( 只 使 用 
Il Adaptive DBN05 做 比较 ， 


和 自动 编码 机 ), DBNU1R 
有 更 好 的 分 类 准确 性 。 


上 世纪 80 年 代 晚期 被 提出 来 的 ， 基 


本 的 自动 编 


网 络 组 成 ， 包 括 输入 层 、 隐 含 层 和 


取 的 特征 不 能 描述 
F 分 类 00。 监 督学 习 就 可 以 很 好 地 解决 这 
F 不 能 很 好 地 表示 原始 的 数据 ， 泛 化 能 


解决 无 监督 学 习 和 监督 学 习 方法 存在 的 问题 ， 
了 一 种 稀疏 和 标签 约束 的 半 监 督 自动 编码 机 
征 和 监督 学 习 
[来 表示 数据 的 特点 ， 再 进一步 将 
的 方法 的 有 效 性 ， 我 们 
0 上 做 大 量 的 实验 。 我 们 


成 一 个 求解 输出 权 值 和 


(semi-supervised AE) , XH 
以 提高 半 监 督 


下 列 公式 得 出 : 
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B-HT 


E 阵 的 最 小 二 乘 解 6 的 问题 , 输出 权 值 B 


Inm 


码 阶段 用 函数 8 对 


动 编码 机 通过 最 


参数 , 其 中 x 是 第 ; 维 训练 样本 ，z, 是 第 ; HC H 
练 样本 的 数 
TE AE 中 需要 调整 
是 编码 和 解码 的 偏 置 


输出 层 , 输 入 层 与 
用 函数 f 对 输入 向 量 x 进行 映射 ， 获 得 
间 层 表示 y 进行 映射 


经 元 的 节点 数 相同 .在 编码 阶段 ， 
P 间 层 表示 y , 在 解 
E 构 数据 zo É 


小 化 重 构 误差 L(cz) e V. 


Ix, - z | 来 微调 网 络 


数据 ，n 是 训 


6 参数 是 6 ={W,b,W',b'} ， 
W yy 是 编码 和 解码 的 权重 ， yy 是 


w 的 转 置 ,通常 采用 经 
与 有 着 较 大 的 人 工 数据 特征 提 
NoE, AE 可 


其 中 p 和 jp 


取 工作 量 的 传统 的 BP 神经 网 络 
取 的 工作 效率 ， 减 少 原始 输入 数 


Nd 


出 潜在 的 本 质 特征 。 


过 使 误差 项 最 小 i 


Jag: J 


wd 


自动 编码 机 学 习 的 泛 


训练 数据 的 实际 输出 标 
司 的 误差 ， 从 而 弥补 无 监督 学 习 的 分 类 准 
E 则 化 来 实现 输入 数据 的 稀 玻 
层 节 点 数 从 而 有 效 地 提取 数据 的 隐藏 结构 ， 
良好 的 学 习 数 据 集 的 能 力 ， 然 后 将 学 习 到 的 特征 表达 输入 
到 分 类 器 中 ， 分 类 结构 验证 了 所 
性 。 图 1 显示 的 是 SLRAE 的 
IC J 
构 误 差 ， 通 过 最 小 化 J 
出 数据 ， 从 而 更 准确 地 重 构 出 输 


FEAR FEE ERG 


局 度 ， 防 止 过 度 拟 合 。 在 此 基 而 


BibL AST RO /ws 和 标签 误差 项 J 
得 表达 更 稀疏 ， 可 以 使 得 SLRAE 有 效 地 从 大 量 的 数据 中 提取 


sparse 


-A fo | | 
ee 


机 的 分 


fF 本 的 目标 标签 值 ， 这 样 前 馈 神经 网 络 的 训练 就 可 以 转化 


Q) 


中 六 表示 隐 含 层 输出 矩阵 H 的 Moore-penrose(MP)] ^ 
。 与 传统 的 需要 多 次 迭代 反馈 的 前 
ELM 利用 最 小 二 乘法 直接 计算 上 
性 能 好 。 


稀 玻 和 标签 约束 的 半 


本 文 提出 了 一 种 使 用 稀疏 和 标签 约束 的 
无 标签 样本 的 无 监督 学 习 过 程 可 
化 能 力 ， 有 标签 样本 的 监督 
学 习 过 程 可 以 提高 半 监 督 自动 编码 机 模型 的 分 类 准确 度 。 

动 编码 机 中 加 入 标签 项 ，》 
签 和 期 望 输出 标签 之 | 
氏 的 缺点 。 我 1 
编码 ,通过 约束 隐 含 


馈 神经 网 络 不 同 的 是 ， 
训练 速度 快 , 泛 化 


督 自 动 编码 机 (SLRAE) 


监督 自动 编码 机 
大 


监督 自动 编码 机 的 有 
用 于 分 类 的 框架 。SLRAE 的 代 
,组 成 。J 是 输入 与 输出 数 


尽 可 能 地 接近 输 


出 数据 。J， 是 为 了 减 小 权重 
门 所 提出 的 SLRAE 还 


限制 隐 含 层 使 


期 望 标签 的 误差 项 ， 通 


芷 为 参数 o 


Joa 是 实际 标签 与 
骨 整 网 络 参数 ， 然 后 将 网 络 输入 到 分 类 器 中 ， 
步 提高 分 类 的 准确 性 。 
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b "n 2 Jua 和 J arse E 
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据 的 维 数 ， 还 可 以 很 好 地 学 习 到 给 定数 据 集 的 有 


征 表示 。 


1.2 极限 学 习 机 (ELM) 
极限 学 习 机 [7 


E 缩 和 分 布 式 特 


黄 广 斌 教授 提出 的 一 种 具有 快速 学 习 


EKE, RM 


A 得。 本 文 提出 的 


过 无 监督 学 习 获 得 ，J，, 是 通过 有 
自动 编码 机 SLRAE 结合 了 3 
JER 4 个 约束 来 调整 权 值 和 14 


监督 和 监督 学 习 的 优点 ， 
襄 置 ， 提 取出 数据 的 特征 表 


结合 分 类 器 ， 通 过 构建 


高 准确 率 与 高 泛 化 能 力 的 半 


督学 习 网 络 ， 进 一 步 实现 分 3 
] 的 标签 约束 利 月 


特点 的 单 隐 


I 络 ， 隐 含 层 输入 权 值 和 仿 


置 都 是 随机 


J 生 的 ， JN 


BUB. fet 


需要 设置 隐 含 层 神经 元 的 个 数 ， 计 算 该 网 络 的 输出 


的 ELM 包括 输入 


ze. BRA N 


个 任意 的 样本 (ct) VEELM 网 络 结构 在 输入 为 x A 


其 中 ， EBA 


层 输 出 矩阵 为 ， 则 整个 网 络 


这 个 标签 项 是 | 
4 思想 计算 的 。 
取 本 质 语 义 特 行 
加 入 稀 玻 限制 可 以 获取 输入 的 
SLRAE 不 但 可 以 有 效 地 从 大 量 数 扩 


可 以 提高 分 类 的 准确 度 。 


名 学 习 提高 分 类 的 准确 率 ， 


极限 学 习 机 (Extreme Learning Machine, ELM ) 
于 原始 输入 数据 往往 庞大 卓 
FE， 稀 玻 约束 限制 隐 含 层 节点 数 使 得 表达 更 稀 
E 要 信息 ， 所 以 本 文 提出 的 
提取 潜在 的 本 质 特征 , 还 


[元 余 ， 难 以 直接 
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输入 层 


梯度 下 降 法 


于 分 类 的 框架 

在 SLRAE "F, itn 个 样本 X-(xY, 输入 到 q 维 空间 ， 
每 一 个 样本 表示 为 x =[x,xw.wxw] eR ， 编 码 函 数 
y, 7 fo (X) =s(Wx, +b) 将 x 映射 1 到 维 隐 含 层 上 得 到 中 间 表 
As y, BERGER z e (y) S s(Wy, b) EI x 得 到 有 。 它 们 
可 以 简洁 地 表示 为 a 2 Wx,- b» y,-s(a): a, -Wy,« b. K 
P s(x) 21/ (1e?) Æ sigmoid 激活 函数 。W 和 分 别 表示 输入 
层 与 隐 含 层 之 间 的 权重 和 偏 置 ， yr 和 p 分 别 表示 隐 含 层 和 输 
出 层 之 间 的 权重 和 偏 置 。 我 们 用 Xe tm 表示 输入 层 的 样本 特 
征 矩 阵 ，y eR” 表示 隐 会 层 的 样本 特征 矩阵 ，Ze gon 表示 输 
出 层 对 于 输入 数据 的 样本 特征 矩阵 。 
在 本 文中 ， 隐 含 层 的 节点 数 远 远大 于 输入 层 的 节点 数 ， 我 
们 可 以 在 隐 含 层 上 加 入 一 个 稀 琉 限制 ， 它 可 以 保证 学 习 到 更 多 
的 局 部 结构 信息 。 在 每 次 迭代 ，SLRAE 计算 出 平均 激活 度 
p; =(1/n)2, ax) > RP n 是 样本 数 ，; 是 第 i 个 样本 ， 
i e(1,2,3...n) > 本 情况 下 ， 第 j 个 隐 含 神经 
元 的 激活 度 。 在 稀疏 约束 条 件 下 ，p ERREX H p; = p, 
通常 情况 下 ,jp 是 一 个 接近 于 0 的 较 小 的 值 , 这 里 , FEDERE KL 


IHH 


G 


aj(%) 表示 第 i 个 样 


divergence) 是 一 种 用 来 测量 两 个 分 布 之 间 差 异 的 方法 , 计算 公 
式 如 下 : 
. 1- 
1. =KL(PN p )- plog -fr +01- p) G) 
EARP GHI T ERE XT, 
t = [tiotan] e 8; (X) =s (Wx +b) 是 隐 含 层 第 i 个 节点 的 输出 
值 。 用 h(x)=[g,(X),g;(X),…g, 00] 表示 输入 数据 在 隐 含 层 的 
4 5d o. Hou X om WA m JE dU A in B 阵 


H -[P (x), E (5)... (x,)] 。 因 为 将 自动 编码 机 用 于 分 类 
前 的 特征 提取 ，ELM 可 以 直接 用 作 分 类 器 02， 所 以 虚拟 出 一 个 
标签 层 ， 也 就 是 分 类 的 结果 ， 之 后 将 AE 的 输入 层 和 隐 含 层 以 
及 虚拟 标签 层 看 做 ELM,， 然 后 用 人 pir 计算 出 隐 含 层 和 虚拟 
实际 的 输出 


标签 层 之 间 的 权 值 和 偏 置 。 在 该 ELM 可 以 计算 出 


标签 ， 公 式 如 下 : 


在 已 知 所 给 的 标签 


L-Hf e 


T f ELM 计算 出 的 实际 输出 标签 | 的 


标签 误差 P(L,T) ， 可 
ming J,,, (0) 


那么 SLRAE 的 目 


Jisnag 7 Jag + AJ a 
EP: oj; py 是 控 


1 n 
项 J= 52/0 Boss 
i=l 


构 误 差 项 , 第 二 项 J， 


的 权重 衰减 项 , 第 三 项 J 


基础 上 ， 得 到 实际 标签 与 给 定 标 签 


间 的 标签 误差 ， 


表示 为 


=min, Y P(LT) G) 


标 函 数 如 下 : 
T p J sparse +y J label (6) 
制 公式 中 各 项 相对 重要 性 的 参数 ， 第 一 


O) y” IP) 是 训练 样本 输入 与 输出 的 重 


-YYuw, 是 为 了 防止 权重 过 度 拟 合 


i-l j=1 


= yxi(p llo; ) 


jal 


ERRAR, 在 


sparse 


隐藏 神经 元 数量 较 多 的 情况 下 仍然 可 以 发 现 输 入 数据 中 重要 的 


结构 ， 最 后 
的 误差 ， 表示 如 下 : 


项 是 标签 误差 项 ， 用 来 表示 原始 标签 与 实际 标签 


Jua = -XPL T)= 


其 中 : T 为 输入 样本 的 原始 标签 


2 2 
n ] 心 ^ 
L-T| = HB-T (7) 
nn es ipee] 


， 上 有 表示 隐 含 层 的 输出 矩阵 ， 


à 是 隐 含 层 与 输出 标签 层 的 权 值 与 偏 置 ， 通 过 公式 ur il 
算 可 得 。 
on ss 数 ， 更 新 W Rp 公式 如 下 : 
l (0) LSRAE W, 
WW ai O 
bi^ zs pi? OJ israr (W, b) (9) 
ôb” 
其 中 ，& 为 学 习 率 ， 对 于 重 构 误差 项 J,, ， 关 于 的 偏 导数 可 
以 表示 为 Væ - lox 7), WABE Js 关于 py 和 Wy di 
oZ n 
导数 为 
oJ oJ 
AE E AE á U 人 / T 10 
La E s(wY «b ei) t, (10) 
Ze |e (wy+we dn 
oW' oZ 
HE Je 关于 隐 含 层 表示 y 的 偏 导数 可 以 表示 为 
Oa - OJ ak d r 1 工 p/ 得 | E 0 
zur -w| Za sw brer)) 那么 得 到 关于 b 和 Ww 
的 偏 导数 为 
JR ac |Zu. (WX ber) (12) 
"s -Ze (WX ban) |x" (13) 


其 中 : 。 是 阿达 玛 积 ，@ 是 外 积 , 17 表示 数值 为 1 的 维 


列 向 量 ， 


录用 稿 EE, $: 稀疏 和 标签 "mu à s din FARS 


s(x)=s(x)[1-s(x)] 是 sigmoid 函数 的 偏 导 数 ， 我 们 可 以 结合 a 实验 结果 与 分 析 


(11) 和 (13) 可 得 "— 
Jar ZEE qwe) [Sz os (WX+ ber) x| (14) 为 了 测试 算法 的 性 能 ， 将 提出 的 SLRAE 与 AE, SAE, ELM 
pH e 24 在 一 些 数据 集 上 做 对 比 实 验 ， 然 后 应 用 到 softmax 分 类 器 上 进 


TH 


因为 权重 衰减 项 J 只 作用 于 W : 所 以 Jà 关于 W 的 偏 导 行 分 类 。 数据 集 主 要 包括 6 个 UCI 数 ] 


ER, 分 别 为 Pen Digits, 
数 可 以 表示 为 2 Au -W =W- Iris, Glass, Seeds, ISOLET, Page Blocks 和 1 个 USPS 数据 
了 S x TD 、 f. RARE 息 如 表 示 。 算 法 是 在 K 
RUP MUR ACRI Jp ， 关 于 p; 的 偏 导数 可 以 表示 为 Rd E E ATA 
l 境 下 进行 ， 操 作 系 统 为 Windows 7, CPU X Intel(R) Core(TM) 


1343.40 GHz, 4 GB 内 存 。 


Yit 


QJ. sse o 1 一 齐 行 
ww LP LP 。 因 为 稀 玻 约束 项 是 对 隐 含 层 进行 稀 疏 ， 
op; P; 1-p; 


m dti 
在 使 用 反 向 传播 方法 时 只 需要 对 编码 阶段 反馈 。， 所 以 J 关 L ARN 
于 p 和 TES # Data sets Training Testing Total ^ Attribution Classes 
b 4 偏 导 为 
1 PenDigits 7294 3498 10992 16 10 
ab -| a s(WX ben). (15) 2  USPS 72901 2007 9298 256 10 
" " 3 Iris 75 75 150 4 3 
SW. -| END (ux bern) X" (16) 4 Glass 214 140 — 354 10 7 
4 
T D " 5 Seed 210 150 360 7 3 
" 对 于 标签 误差 项 /，，, 关于 隐 含 层 表示 y 的 偏 导数 可 以 表 < 
: . 6 ISOLET 4000 1473 5473 10 54 
示 为 Piwa J ua =y(v$-r]) 相同 地 ， 标 签 误 差 项 只 作用 于 输入 与 
By 7  PageBlocks — 6238 1559 — 7797 617 26 
: ` BAIE. 只 产生 它们 之 间 的 误差 , 所 以 Jaa 关于 p 和 W 的 SLRAE 算法 的 参数 有 4 ，p 和 yy ,它们 是 用 来 控制 公式 中 
@ guns 各 项 的 相对 重要 性 。 对 这 些 参数 进行 讨论 ， 将 这 些 参数 以 
f, Ys -| De os (WX eben) h, a7 {1x10°le=-5,-4,-3,-2,-1,0,1,2,3,4} 的 规则 变化 。 图 2 讨论 了 


CD a m SLRAE 使 用 Pen Digits 数据 库 时 的 参数 4 = 0.00001» 4 = 0.0001 
a Om -|Zu qux «bei x (18) ; 

oW oY 和 4.=0.001 的 性 能 。 每 张 图 表示 一 个 不 同 的 4 =0.01 的 值 ， 
综合 以 上 重 构 误差 ， 权 重 衰 减 项 ， 稀 玻 约 束 项 和 标签 误差 14 -01 和 14-1 轴 表示 了 参数 的 变化 范围 , 彩 条 表示 精度 。 可 以 


D 


pus 


项 的 偏 导数 ， 可 以 得 到 SLRAE 的 目标 函数 J uuu 的 偏 导数 为 从 图 2 看 出 当 4=10，4=100， 多 =1000 时 ，SLRAE 达到 最 
>C Vime Vae q gua pO ware iu (19) 优 的 情况 ， 分 类 的 准确 度 达到 99.4%. A=10000; 5 和 y 数量 
e ob ob ob ob ob j zi ^ 

iW A 1 I [p] 一 FE 

f J israe PEOR, BO wane y Eua 20) 级 相差 大 的 原因 是 为 了 调整 惩罚 项 达到 同 数量 级 。 


三 0W w “aw ^ OW "aw 


o" : 
P. g EC 
«ao «c « 
B B i 
a) 4-0.00001 b) 420.0001 c) 420.001 
s S, g’ 
8C » B 8: 
E] 3. FE 
B B B 


d) 120.01 €) 42041 f) 1-1 
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Accuracy/% 


wo aB 


Accuracy/% 


i) 4 21000 


为 了 使 比较 公平 , 对 比 的 
相同 的 深度 和 隐 含 层 节点 数 )。 


网 络 结构 有 和 


数 ， 之 后 我 们 研究 神经 元 数目 对 性 能 的 影响 。 本 文 首先 为 每 个 ”用 于 分 类 的 准 

数据 集 设置 最 佳 的 模型 参数 ， 然 后 改变 神经 元 隐 含 层 节点 数 且 ”平稳 ,SLRAE 
固定 其 他 参数 。 图 3 显示 了 Pen Digits, USPS 和 ISOLET 数据 “显示 可 以 看 出 SLRAE 
集 的 分 类 结果 。 根 据 每 个 数据 集 的 原始 特征 数 来 设置 隐 含 层 ? 不 论 隐 含 

经 元 的 节点 数 。 改 变 隐 含 层 神经 元 的 个 数 ，SLRAE 在 分 类 准确 在 95.5% 左 右 

率 上 明显 均 优 于 其 它 算 法 ， 如 图 3(a) 可 以 看 出 当 隐 会 层 节 点 个 


954 


LL 


Accuracy/?6 


& 
è 
& asi 


10 


Accuracy/?6 


PA 


同 的 网 络 结构 ( 即 有 


以 上 实验 得 到 分 类 结果 最 高 的 参 


数 达 到 100 时 , SLRAE 


Gib, 4i 稀 政和 标签 约 末 半 监 督 自 动 编码 机 的 分 


]) 


2 不 同 4,B 和 yy 下 SLRAE 的 性 能 


ÁN /A 


4=10000 


态 ， 分 类 的 准 


Eng pem] 


于 分 类 


的 ; 


F 100%。 从 图 3(b) 中 可 以 看 日 


类 算法 


于 分 类 的 准确 率 就 达到 一 个 平稳 的 状 


H SLRAE 


E 确 率 差 不 多 维持 在 93% 上 下 ， 实 验 结果 一 直 比 较 


确 率 是 很 明显 高 于 其 它 算法 ,图 3(c) 


o 


于 分 类 
层 节 点 个 数 为 多 少 , SLRAE 的 分 类 ; 


的 准确 率 是 明显 优 于 其 
侍 确 率 差 不 多 维持 


UEM, 


Pd £ E 
ME 904 or wL 
E B Nx F4 T —-- DbN 
d E E T E. / Y LR Adupive DEN 
2 2 Nan A CR 
R] /) R m- SLRAE M— * AA R 84 T "a id * Ms 
| —e— SAE Ta A mE 
f 60- -A- AE 824 jl i TEL. 
| y- ELM ~ A 
804 | —4— DBN ss] SecLRAR ad Re 
j »— Adaptive DBN <4- DBN / bom 
* —p— Adaptive DBN M 
T T T T T T T 50-7 T T T T T T T 78 -一 一 一 
0 50 100 150 200 250 300 350 50 100 150 200 250 300 350 400 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 
隐 含 层 节点 数 /个 隐 含 层 节点 数 /个 隐 含 层 节点 数 /个 
: eita Md = 六 - ADS 
(a) Pen Digits 数据 集 (b) USPS 数据 集 (c) ISOLET 数据 集 


在 接 下 来 的 实验 中 研究 不 


AE，ELM，LRAE，DBN 以 及 Adaptive DBN 的 分 类 准确 率 的 


刚刚 隐 含 层 节点 个 数 对 分 类 ; 


影响 ， 将 其 进行 对 比 实验 。 在 


司 的 迭代 次 数 对 SLRAE，SAE,， 


3 隐 含 层 神经 元 个 数 的 影响 


率 的 影响 的 实验 中 获得 了 每 个 方法 在 每 个 数据 集 


t fg 


最 高 的 隐 含 层 节 点 个 数 。 


数据 集 上 和 迭代 次 数 对 各 方法 的 影响 。 


上 分 类 准 


TE 


[| 


4 是 在 Pen Digits, USPS 和 ISOLET 
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1004 


95 


im, 


GhinaXiy 例 作 期 刊 ， 


等 : 稀疏 和 标签 约束 半 监 督 自动 编码 机 的 分 类 


中 一 二 a m———Á— ER 
98 4 W— SLRAE $1 i 
N^ EE p f MEET. murem 
x x —€— DBN pe A T y x 89 JL Adaptive DBN| A ie: m) a 
g 964 法 80 4 Adaptive DBN Et / / V V m 58] v ow 
a pa \ Jo CN A i gr] A 
K 954 X DS NA N Y / V A X 86 r^ ——— 3 
& SES ~ ib / V V & gs ha 
i Ns E — N pi $ V ~ de prm E " 
9-42 一 oa TOUT CE 7 Ln iS E 82] LN Pa E Iu ~ 
m : "PE E e E 
92 4, r ; : i ] ] 65 4 ——4 : ; . — r ———* 80 d, ; i 
100 — 200 400 50 600 700 800 100 200 300 400 500 600 700 80 900 1000 100 200 300 400 500 600 700 800 900 1000 
和 迭代 次 数 /次 迭代 次 数 / 次 迭代 次 数 /% 
(a) Pen Digits 数据 集 (b) USPS 数据 集 (f) ISOLET 数据 集 
图 4 和 迭代 次 数 的 影响 
从 图 4 可 以 看 出 在 各 迭代 次 数 的 情况 下 ，SLRAE 用 于 分 类 的 准确 率 都 是 很 明显 高 于 SAE, AE, ELM, LRAE, DBN 以 及 
Adaptive DBN 这 些 算法 的 。 从 图 4(a) 中 看 出 迭代 次 数 的 对 SLRAE 的 分 类 准确 率 的 影响 不 大 ， 分 类 准确 率 高 大 99.41%。 从 图 4(b) 
HEE ARZGA] 400 时 ，SLRAE 用 于 分 类 的 准确 率 达 到 稳定 状态 ， 分 类 准确 率 达 到 94.4%。 从 图 4(c) 中 看 出 SLRAE 用 于 


分 类 的 准确 率 是 光滑 的 ， 并 不 随 着 迭代 次 数 的 增加 而 发 生 巨大 改变 ， 当 和 迭代 次 数 为 800 时 ，SLRAE 分 类 准确 率 最 高 为 95.7%。 
表 2 各 数据 库 上 运行 100 次 准确 率 范 围 
AE SAE ELM LRAE DBN Adaptive DBN SLRAE 
92.73--0.63 94.58+0.73 94.30+1.33 99.18+0.25 93.07+2.03 96.67+1.64 99.34+0.26 
Pen Digits 
-0.66 -0.95 -1.34 -0.68 -2.06 -4.58 -0.25 
85.87+2.87 87.79+1.95 89.75+0.78 90.55+0.89 70.35+0 73.49+1.49 93.86+0.41 
USPS 
-2.81 -3.34 -1.11 -1.16 -0 -1.48 -0.44 
96.82+1.85 96.91+1.76 93.68+4.99 96.83+1.84 97.33+0 95.83+1.5 98.13+0.54 
Iris 
-0.82 -0.91 -5.68 -6.16 -0 -11.8 -0.8 
83.87+14.73 96.93+3.07 90.06+8.07 85.63+13.44 98.07+0 84.46+14.14 99.24+0.76 
Glass 
-19.85 -8.61 -15.26 -23.01 -0 -24.18 -0.84 
87.68+8.32 96.80+1.20 98.02+1.31 87.78+6.89 97.33+0 98.03+1.97 98.67+1.33 
Seeds 
-13.68 -1.47 -2.69 -11.78 -0 -5.36 -1.34 
84.66+2.83 84.39+2.52 718.27+3.77 94.05+1.20 82.26+1.68 87.62+2.37 94.25+1.06 
ISOLET 
-2.49 -2.99 -2.84 -1.31 -1.24 -2.54 -1.18 
88.35+5.46 86.33+1.31 92.41+2.49 92.71+1.71 86.33+0 88.55+4.85 94.25+0.95 
Page Blocks 
-18.35 -2.56 -3.16 -14.89 -0 -2.36 -2.18 
表 2 中 各 数据 的 上 一 行 表示 的 是 平均 准确 率 与 到 最 大 准确 约束 项 没有 用 到 目标 信息 不 利于 用 到 分 类 中 ， 单 独 的 加 入 标签 


率 的 波动 ， 下 一 行 表 示 的 是 到 最 小 准确 率 的 波动 。 通 过 表 2 可 
以 看 出 SLRAE 方法 在 各 数据 集 上 
有 时 波动 大 于 DBN, DBN 在 数据 
和 Page Blocks 上 的 波动 为 0， 但 
是 高 于 DBN 以 及 


的 分 类 准确 


其 它 算法 的 , 所 以 SLRAE 


明显 高 于 其 他 算法 的 。 


4 ”结束 语 


在 本 文中 ， 将 稀 朴 和 标签 正 贝 


一 个 半 监 督 自动 编码 机 (SLRAE)。 


提取 隐 含 


本 的 本 质 特 征 ， 添 加 标签 约束 项 通 
使 分 类 精度 高 于 


的 误差 ， 


层 结构 ， 学 习 更 复杂 的 


集 USPS、 


上 化 加 入 到 自 


动 编码 机 
添加 稀疏 约束 项 可 以 有 效 地 
FE 线性 函数 ， 更 准确 


率 的 波动 都 较 小 ， 
Iris. Glass, Seeds 


是 SLRAE 的 平均 分 类 准确 率 


项 导致 学 习 到 的 特 4 


F 不 能 很 好 的 表示 原始 的 数据 ， 泛 化 能 力 变 


模型 容易 过 度 拟 合 。 所 以 针对 这 一 问题 ， 为 了 发 挥 无 监督 


学 习 与 监督 学 习 的 


自动 编码 机 ， 通 过 对 自 


监督 


L35, 


用 于 分 类 的 优势 


过 减 小 实际 标签 和 大 


也 提取 样 
望 标签 


是 


PP 提出 


监督 


0 无 监督 模型 。 


单独 


E 


J Fa 


X 8| BE nJ LAER FA R Ha RE 
现 较 好 分 类 效果 的 目 


的 。 
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